自由文本的理由旨在通过自然语言更灵活,直观地解释神经语言模型(LM)行为。为了确保理由质量,重要的是要拥有衡量理由的忠诚度(反映了LM的实际行为)和合理性(对人类的说服力)很重要。所有现有的自由文本理由指标均基于模拟性(基本原理与LM预测标签之间的关联),但没有评估此类指标可靠性的协议。为了调查这一点,我们提出了框架,该框架是评估自由文本理由的模拟性指标的框架。框架基于三个公理:(1)良好的指标应为参考理由产生最高的分数,从而最大程度地逐构构建标签标签的关联; (2)良好的指标应适当地对理由的语义扰动敏感; (3)良好的指标应该对LM的任务性能的变化具有鲁棒性。在三个文本分类数据集中,我们表明现有的可模拟性指标无法满足所有三个帧公理,因为它们是通过模型预处理实现的,该模型预处理弄乱了度量标准的信号。我们介绍了一种非原始的模拟性变体,该变体将(1)和(3)的性能平均提高41.7%和42.9%,同时在(2)上进行竞争性能。
translated by 谷歌翻译
经常引用联合学习的挑战是数据异质性的存在 - 不同客户的数据可能遵循非常不同的分布。已经提出了几种联合优化方法来应对这些挑战。在文献中,经验评估通常从随机初始化开始联合培训。但是,在联合学习的许多实际应用中,服务器可以访问培训任务的代理数据,该数据可用于在开始联合培训之前用于预训练模型。我们从经验上研究了使用四个常见联合学习基准数据集从联邦学习中的预训练模型开始的影响。毫不奇怪,从预先训练的模型开始,比从随机初始化开始时,缩短了达到目标错误率所需的训练时间,并使训练更准确的模型(最高40 \%)。令人惊讶的是,我们还发现,从预先训练的初始化开始联合培训时,数据异质性的效果不那么重要。相反,从预先训练的模型开始时,使用服务器上的自适应优化器(例如\ textsc {fedadam})始终导致最佳准确性。我们建议未来提出和评估联合优化方法的工作在开始随机和预训练的初始化时考虑性能。我们还认为,这项研究提出了几个问题,以进一步了解异质性在联合优化中的作用。
translated by 谷歌翻译
从经验上证明,在跨客户聚集之前应用多个本地更新的实践是克服联合学习(FL)中的通信瓶颈的成功方法。在这项工作中,我们提出了一种通用食谱,即FedShuffle,可以更好地利用FL中的本地更新,尤其是在异质性方面。与许多先前的作品不同,FedShuffle在每个设备的更新数量上没有任何统一性。我们的FedShuffle食谱包括四种简单的功能成分:1)数据的本地改组,2)调整本地学习率,3)更新加权,4)减少动量方差(Cutkosky and Orabona,2019年)。我们对FedShuffle进行了全面的理论分析,并表明从理论和经验上讲,我们的方法都不遭受FL方法中存在的目标功能不匹配的障碍,这些方法假设在异质FL设置中,例如FedAvg(McMahan等人,McMahan等, 2017)。此外,通过将上面的成分结合起来,FedShuffle在Fednova上改善(Wang等,2020),以前提议解决此不匹配。我们还表明,在Hessian相似性假设下,通过降低动量方差的FedShuffle可以改善非本地方法。最后,通过对合成和现实世界数据集的实验,我们说明了FedShuffle中使用的四种成分中的每种如何有助于改善FL中局部更新的使用。
translated by 谷歌翻译
我们考虑了两种用于培训部分个性化模型的联合学习算法,共享和个人参数在设备上同时或交替更新。文献中已经提出了两种算法,但是它们的收敛性能尚未完全理解,尤其是对于交替的变体。我们提供一般非coNVEX设置中两种算法的收敛分析,并部分参与,并描述一个算法,其中一个算法是另一个算法。我们对现实世界图像,文本和语音数据集的实验表明,(a)部分个性化可以通过一小部分个人参数获得完整模型个性化的大部分好处,并且(b)交替的更新算法通常优于表现。同时更新算法,略有但一致的边距。
translated by 谷歌翻译
自我监督的学习方法在下游分类任务中显示出令人印象深刻的结果。但是,在理解和解释其学会的表现方面的工作有限。在本文中,我们研究了几种最先进的自我监督模型的表示空间,包括Simclr,Swav,Moco V2和Byol。没有使用类标签信息,我们首先发现了对各种样本子集高度活跃的判别特征,并且对应于图像中的独特物理属性。我们表明,使用这种歧视特征,可以压缩高达50%的自我监督模型的表示空间,而不会显着影响下游线性分类。接下来,我们提出了一个示例自我监督的表示质量评分(或q得分),可以计算,而无需访问任何标签信息。 Q得分,利用判别特征可靠地预测在下游分类任务中是否可能错误地分类为SIMCLR上的AUPRC为0.91,而BYOL在Imagenet-100上进行了训练。 Q得分也可以用作正规化术语,以补救在Imagenet-100,Cifar-10,Cifar-100和STL-10上所有4个自我监督基线的相对准确性相对准确性的相对准确性的相对准确性高达8%。此外,通过热图分析,我们表明Q得分正则化增强了判别特征并降低了特征噪声,从而改善了模型的解释性。
translated by 谷歌翻译
虽然神经网络在平均病例的性能方面对分类任务的成功显着,但它们通常无法在某些数据组上表现良好。这样的组信息可能是昂贵的;因此,即使在培训数据不可用的组标签不可用,较稳健性和公平的最新作品也提出了改善最差组性能的方法。然而,这些方法通常在培训时间使用集团信息的表现不佳。在这项工作中,我们假设没有组标签的较大数据集一起访问少量组标签。我们提出了一个简单的两步框架,利用这个部分组信息来提高最差组性能:训练模型以预测训练数据的丢失组标签,然后在强大的优化目标中使用这些预测的组标签。从理论上讲,我们在最差的组性能方面为我们的方法提供泛化界限,展示了泛化误差如何相对于培训点总数和具有组标签的培训点的数量。凭经验,我们的方法优于不使用群组信息的基线表达,即使只有1-33%的积分都有组标签。我们提供消融研究,以支持我们框架的稳健性和可扩展性。
translated by 谷歌翻译
通过突出显示最大影响输出的文本输入,提取理由对给定任务实例的预测解释了语言模型(LM)预测。理想情况下,理由提取应该是忠诚的(反映LM的行为),合理的(对人类来说),数据效率和快速,而不牺牲LM的任务表现。先前的基本原理提取工程由专门的方法提供解决这些desiderata的各个子集 - 但从来没有五个。狭隘地关注某些Desiderata通常会以忽略的牺牲品为代价,因此现有的理由提取器在现实世界应用中往往是不切实际的。为了解决这一挑战,我们提出了Unirex,统一和高度灵活的理由提取学习框架,允许用户容易地占所有五个因素。 UNIREX使理论提取器培训过程的端到端定制,支持任意:(1)启发式/学习的理由提取者,(2)忠诚和/或合理性目标的组合,以及(3)金理由监管的数额。在三个文本分类数据集中,我们最好的UNIrex配置实现了与强基线相比的五个desiderata的较高余额。此外,Unirex培训的理由提取器甚至可以推广到看不见的数据集和任务。
translated by 谷歌翻译
Federated Learning is a distributed learning paradigm with two key challenges that differentiate it from traditional distributed optimization: (1) significant variability in terms of the systems characteristics on each device in the network (systems heterogeneity), and (2) non-identically distributed data across the network (statistical heterogeneity). In this work, we introduce a framework, FedProx, to tackle heterogeneity in federated networks. FedProx can be viewed as a generalization and re-parametrization of FedAvg, the current state-of-the-art method for federated learning. While this re-parameterization makes only minor modifications to the method itself, these modifications have important ramifications both in theory and in practice. Theoretically, we provide convergence guarantees for our framework when learning over data from non-identical distributions (statistical heterogeneity), and while adhering to device-level systems constraints by allowing each participating device to perform a variable amount of work (systems heterogeneity). Practically, we demonstrate that FedProx allows for more robust convergence than FedAvg across a suite of realistic federated datasets. In particular, in highly heterogeneous settings, FedProx demonstrates significantly more stable and accurate convergence behavior relative to FedAvg-improving absolute test accuracy by 22% on average.
translated by 谷歌翻译
Federated learning poses new statistical and systems challenges in training machine learning models over distributed networks of devices. In this work, we show that multi-task learning is naturally suited to handle the statistical challenges of this setting, and propose a novel systems-aware optimization method, MOCHA, that is robust to practical systems issues. Our method and theory for the first time consider issues of high communication cost, stragglers, and fault tolerance for distributed multi-task learning. The resulting method achieves significant speedups compared to alternatives in the federated setting, as we demonstrate through simulations on real-world federated datasets. IntroductionMobile phones, wearable devices, and smart homes are just a few of the modern distributed networks generating massive amounts of data each day. Due to the growing storage and computational power of devices in these networks, it is increasingly attractive to store data locally and push more network computation to the edge. The nascent field of federated learning explores training statistical models directly on devices [37]. Examples of potential applications include: learning sentiment, semantic location, or activities of mobile phone users; predicting health events like low blood sugar or heart attack risk from wearable devices; or detecting burglaries within smart homes [3,39,42]. Following [25,36,26], we summarize the unique challenges of federated learning below.1. Statistical Challenges: The aim in federated learning is to fit a model to data, {X 1 , . . . , X m }, generated by m distributed nodes. Each node, t ∈ [m], collects data in a non-IID manner across the network, with data on each node being generated by a distinct distribution X t ∼ P t . The number of data points on each node, n t , may also vary significantly, and there may be an underlying structure present that captures the relationship amongst nodes and their associated distributions. Systems Challenges:There are typically a large number of nodes, m, in the network, and communication is often a significant bottleneck. Additionally, the storage, computational, and communication capacities of each node may differ due to variability in hardware (CPU, memory), network connection (3G, 4G, WiFi), and power (battery level). These systems challenges, compounded with unbalanced data and statistical heterogeneity, make issues such as stragglers and fault tolerance significantly more prevalent than in typical data center environments.In this work, we propose a modeling approach that differs significantly from prior work on federated learning, where the aim thus far has been to train a single global model across the network [25,36,26]. Instead, we address statistical challenges in the federated setting by learning separate models for each node, {w 1 , . . . , w m }. This can be naturally captured through a multi-task learning (MTL) framework, where the goal is to consider fitting separate but relate
translated by 谷歌翻译
物理信息的神经网络(PINN)是神经网络(NNS),它们作为神经网络本身的组成部分编码模型方程,例如部分微分方程(PDE)。如今,PINN是用于求解PDE,分数方程,积分分化方程和随机PDE的。这种新颖的方法已成为一个多任务学习框架,在该框架中,NN必须在减少PDE残差的同时拟合观察到的数据。本文对PINNS的文献进行了全面的综述:虽然该研究的主要目标是表征这些网络及其相关的优势和缺点。该综述还试图将出版物纳入更广泛的基于搭配的物理知识的神经网络,这些神经网络构成了香草·皮恩(Vanilla Pinn)以及许多其他变体,例如物理受限的神经网络(PCNN),各种HP-VPINN,变量HP-VPINN,VPINN,VPINN,变体。和保守的Pinn(CPINN)。该研究表明,大多数研究都集中在通过不同的激活功能,梯度优化技术,神经网络结构和损耗功能结构来定制PINN。尽管使用PINN的应用范围广泛,但通过证明其在某些情况下比有限元方法(FEM)等经典数值技术更可行的能力,但仍有可能的进步,最著名的是尚未解决的理论问题。
translated by 谷歌翻译